Correlation এবং Covariance Analysis

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Exploratory Data Analysis (EDA)
272

Correlation এবং Covariance হল দুটি পরিসংখ্যানিক পরিমাপ যা দুটি চলক বা ভেরিয়েবল-এর মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। এগুলি আমাদের বুঝতে সাহায্য করে কিভাবে দুটি ভেরিয়েবল একে অপরের সাথে সম্পর্কিত এবং একটি ভেরিয়েবলের পরিবর্তন অন্য ভেরিয়েবলের পরিবর্তনে কিভাবে প্রভাব ফেলে।

১. Covariance:

Covariance দুটি চলক বা ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ দেয়। এটি পরিমাপ করে কিভাবে দুটি ভেরিয়েবল একে অপরের সাথে একই দিকে (positive covariance) বা বিপরীত দিকে (negative covariance) চলাচল করে। Covariance-এর মান দুটি ভেরিয়েবলের একে অপরের সাথে সম্পর্কের শক্তি এবং দিক নির্দেশ করে, কিন্তু এটি সেই সম্পর্কের শক্তি নির্দেশ করে না এবং এর একক কোনো নির্দিষ্ট স্কেল থাকে না।

Covariance সূত্র:

Cov(X,Y)=(XiXˉ)(YiYˉ)nCov(X, Y) = \frac{\sum{(X_i - \bar{X})(Y_i - \bar{Y})}}{n}

এখানে:

  • XX এবং YY হলো দুটি চলক
  • Xˉ\bar{X} এবং Yˉ\bar{Y} হলো যথাক্রমে XX এবং YY-এর গড়
  • nn হলো ডেটার সংখ্যা

Covariance Interpretation:

  • Positive Covariance: যদি দুইটি চলক বা ভেরিয়েবল একই দিকে চলতে থাকে (যেমন, উভয় ভেরিয়েবল বাড়ছে বা কমছে), তবে তাদের covariance পজিটিভ হবে।
  • Negative Covariance: যদি দুটি চলক বিপরীত দিকে চলে (একটি বাড়ে এবং অন্যটি কমে), তবে তাদের covariance নেগেটিভ হবে।
  • Zero Covariance: যদি দুইটি চলক একে অপরের সাথে কোনো সম্পর্ক না থাকে (অর্থাৎ, একটির পরিবর্তন অন্যটির উপর কোনো প্রভাব ফেলে না), তবে covariance শূন্য হবে।

২. Correlation:

Correlation দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে, কিন্তু এটি একটি স্কেল-মুক্ত পরিমাপ, যা চলকদের মধ্যে সম্পর্কের শক্তি নির্ধারণ করতে সাহায্য করে। Correlation সাধারণত Pearson correlation coefficient দ্বারা পরিমাপ করা হয়, যা একটি মান প্রদান করে -১ থেকে +১ পর্যন্ত।

Pearson Correlation Coefficient সূত্র:

r=Cov(X,Y)σXσYr = \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y}

এখানে:

  • Cov(X,Y)Cov(X, Y) হলো দুটি ভেরিয়েবলের covariance
  • σX\sigma_X এবং σY\sigma_Y হলো যথাক্রমে XX এবং YY-এর মান বিচ্যুতি (standard deviation)

Correlation Interpretation:

  • r = +1: দুটি চলক মধ্যে পূর্ণ পজিটিভ সম্পর্ক। অর্থাৎ, একটির মান বৃদ্ধি পাওয়ার সাথে সাথে অপরটির মানও বৃদ্ধি পায়।
  • r = -1: দুটি চলক মধ্যে পূর্ণ নেগেটিভ সম্পর্ক। অর্থাৎ, একটির মান বৃদ্ধি পাওয়ার সাথে সাথে অপরটির মান কমে যায়।
  • r = 0: দুটি চলক মধ্যে কোনো সম্পর্ক নেই। অর্থাৎ, একটির পরিবর্তন অপরটির উপর কোনো প্রভাব ফেলে না।
  • 0 < r < 1: দুটি চলক মধ্যে পজিটিভ সম্পর্ক, তবে সম্পর্কের শক্তি ১ এর চেয়ে কম।
  • -1 < r < 0: দুটি চলক মধ্যে নেগেটিভ সম্পর্ক, তবে সম্পর্কের শক্তি -১ এর চেয়ে কম।

৩. Correlation এবং Covariance এর মধ্যে পার্থক্য

বৈশিষ্ট্যCovarianceCorrelation
মূল্য পরিসীমাকোনো নির্দিষ্ট পরিসীমা নেই (যেকোনো মান হতে পারে)-1 থেকে +1 পর্যন্ত
এককএকক নির্ধারিত নয় (যেকোনো একক হতে পারে)একক-মুক্ত (স্ট্যান্ডার্ড পরিমাপ)
সম্পর্কের শক্তিশক্তি নির্ধারণ করতে পারেন নাসম্পর্কের শক্তি এবং দিক নির্ধারণ করে
ব্যবহারদুটি ভেরিয়েবলের মধ্যে সম্পর্কের দিক এবং শক্তি বোঝায়দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিকের সমন্বিত পরিমাপ

৪. Pandas-এ Covariance এবং Correlation বিশ্লেষণ

Pandas-এ সহজেই covariance এবং correlation বের করা যায়।

উদাহরণ ১: Covariance বের করা

import pandas as pd

# DataFrame তৈরি করা
data = {'X': [1, 2, 3, 4, 5], 'Y': [5, 4, 3, 2, 1]}
df = pd.DataFrame(data)

# Covariance বের করা
cov_matrix = df.cov()
print(cov_matrix)

এখানে, cov() ফাংশনটি DataFrame এর মধ্যে covariance বের করে দেয়।

উদাহরণ ২: Correlation বের করা

# Correlation বের করা
correlation_matrix = df.corr()
print(correlation_matrix)

এখানে, corr() ফাংশনটি DataFrame এর মধ্যে correlation বের করে দেয়।


সারাংশ

Covariance এবং Correlation দুটি পরিসংখ্যানিক পরিমাপ যা ভেরিয়েবলের মধ্যে সম্পর্ক বুঝতে সাহায্য করে। Covariance সম্পর্কের দিক এবং শক্তি নির্ধারণ করে, তবে এটি একক নির্ধারণে সক্ষম নয় এবং এর মান স্কেল-মুক্ত নয়। অপরদিকে, Correlation ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক বোঝায়, এবং এটি একটি স্কেল-মুক্ত পরিমাপ (যা -1 থেকে +1 এর মধ্যে থাকে)। Correlation সম্পর্কের শক্তি এবং দিক সম্পর্কে আরও বিস্তারিত তথ্য প্রদান করে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...